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摘要 


该 中 文 命名 实体 识别 项 目的 目标 主要 包括 以 下 两 个 方面 。 首 先是 实现 高 精度 的 中 文 
命名 实体 识别 ， 通 过 对 中 文 文本 进行 深度 学 习 ， 提 高 中 文 实体 识别 的 准确 率 ， 减 少 误 识 
别 和 漏 识别 的 现象 。 其 次 是 实现 标准 化 流程 建立 ， 形 成 一 套 标准 化 的 中 文 命名 实体 识别 
流程 ， 包 括 数 据 预 处 理 、 模 型 训练 、 实 体 识别 等 ， 为 后 续 研究 提供 基础 。 代 码 提交 在 了 
GitHub, PLEA https://github.com/Blue88888/DL_CNER. 
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abstract 


The goals of this Chinese named entity recognition project mainly include the following two 
aspects. Firstly, it is to achieve high-precision Chinese named entity recognition. Through 
deep learning of Chinese text, the accuracy of Chinese entity recognition is improved, and the 
phenomenon of misidentification and missed recognition is reduced. Secondly, it is necessary 
to establish a standardized process and form a standardized Chinese named entity recognition 
process, including data preprocessing, model training, entity recognition, etc., to provide a 
foundation for subsequent research. The code has been submitted to GitHub at 
https://github.com/Blue88888/DL_CNER . 
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中 文 命 名 实体 识别 是 自然 语言 处 理 领 域 的 一 项 重要 任务 ， 旨 在 识别 出 中 文 文本 中 的 
特定 名 词 短语 ， 例 如 人 名 、 地 名 、 组 织 机 构 名 等 。 它 是 中 文 信息 抽取 、 智 能 问答 、 智 能 
推荐 等 应 用 的 重要 基础 。 中 文 命名 实体 识别 主要 依赖 于 自 然 语言 处 理 技术 和 机 器 学 习 算 
法 。 通 过 对 大 量 中 文 文本 的 训练 , 机 器 学 习 模型 可 以 学 会 如 何 识 别 不 同类 型 的 命名 实体 。 
在 训练 过 程 中 ， 需 要 使 用 大 量 的 标注 数据 ， 这 些 数 据 包含 了 不 同类 型 命名 实体 的 实例 及 
其 在 文本 中 的 位 置 。 中 文 命 名 实体 识别 的 挑战 主要 来 自 于 中 文 语 言 的 复杂 性 ， 例 如 词义 
混淆 、 一 词 多 义 、 语 境 依赖 等 问题 。 因 此 ， 研 究 者 需要 针对 中 文 语 言 的 特性 ， 设 计 更 加 
有 效 的 算法 和 模型 ， 以 提高 中 文 命名 实体 识别 的 准确 率 和 泛 化 能 力 。 总 的 来 说 ， 中 文 命 


名 实体 识别 是 中 文 自然 语言 处 理 领 域 的 重要 研究 方向 之 一 ， 对 于 推动 相关 应 用 的 发 展 具 
有 重要 意义 。 


=. 相关 工作 


中 文 命名 实体 识别 (Named Entity Recognition，NER) 是 自然 语言 处 理 领 域 中 的 关 
键 任务 ， 旨 在 从 文本 中 识别 和 分 类 命名 实体 ， 如 和 人 名、 地名、 组 织 机 构 名 等 。 随 着 社会 
言 息 的 爆炸 性 增长 ，NER 的 重要 性 逐渐 凸显 。 本 文 将 对 中 文 NER 的 国内 外 研究 现状 进 
行 综述 ， 探 讨 主要 方法 、 技 术 进 展 以 及 未 来 的 发 展 趋势 。 


1. 国内 研究 现状 


在 国内 ， 中 文 NER 的 研究 经 历 了 从 传统 方法 到 深度 学 习 的 演进 。 早 期 ， 基 于 规则 
和 字典 的 方法 主导 了 中 文 NER 的 研究 ， 但 在 复杂 语 境 和 未 知 实体 的 处 理 上 存在 一 定局 
限 。 近 年 来 ， 随 着 深度 学 习 技术 的 兴起 ， 国 内 研究 者 逐渐 将 卷 积 神经 网 络 (CNN) [1], 
长 短 时 记忆 网 络 [2] (LSTM) 和 注意 力 机 制 引 入 NER 任务 ， 取 得 了 显著 的 成 果 。 

以 深度 学 习 为 基础 的 模型 如 BiLSTM-CRF[3] (Bi-directional LSTM with Conditional 
Random Fields) 和 BERT[4] (Bidirectional Encoder Representations from Transformers) 的 
引入 ， 使 中 文 NER 的 性 能 大 幅 提 升 。 例 如 ， 张 等 人 (2018) 在 BiLSTM-CRF 模型 中 引 
入 字 级 别 和 词 级 别 的 戏 入 ， 有 效 提高 了 NER 的 准确 性 。 同 时 ， 王 和 李 (2019) 在 BERT 
的 基础 上 构建 了 一 种 多 任务 学 习 模型 ， 联 合 考虑 了 NER 和 其 他 相关 任务 ， 取 得 了 显著 
的 性 能 提升 。 此 外 ， 一 些 研究 聚焦 于 特定 领域 的 NER， 如 医学 和 法 律 。 杨 等 人 (2020) 
通过 引入 领域 知识 和 深度 学 习 模 型 ， 实 现 了 对 医学 领域 中 文 实体 的 高 效 识 别 ， 为 医学 信 
息 提取 提供 了 有 力 支持 。 


2. 国外 研究 现状 


在 国外 ，NER 的 研究 同样 取得 了 显著 进展 。 传 统 的 机 器 学 习 方 法 ， 如 支持 向 量 机 
(SVM) 和 条 件 随机 场 (CRF) ， 曾 是 主流 。 然 而 ， 随 着 深度 学 习 的 兴起 ， 基 于 神经 网 
络 的 方法 逐渐 成 为 主流 。 近 年 来 ，BERT 模型 在 国外 NER 研究 中 引起 广泛 关注 。Devlin 
SA (2018) 提出 的 BERT 模型 通过 预 训练 在 大 规模 语 料 上 ， 能 够 更 好 地 捕捉 上 下 文 信 
息 ， 显 著 提 升 了 NER 的 性 能 [5]。 另 外 ， 一 些 研 究 者 也 致力 于 解决 NER 中 的 迁移 学 习 问 
题 ， 提 高 模型 在 不 同 领域 和 语 境 中 的 泛 化 能 力 。Smith 和 Jones (2021) 提出 了 一 种 基于 
迁移 学 习 的 方法 ， 通 过 在 英文 数据 上 进行 预 训练 ， 实 现 了 对 其 他 语言 NER 任务 的 有 效 
迁移 。 这 种 方法 为 跨 语言 NER 研究 提供 了 新 的 思路 。 


3. 研究 趋势 与 展望 
综合 国内 外 研究 现状 , 中 文 NER 的 研究 正 朝 着 以 下 几 个 方向 发 展 : 多 模 态 NER: 结 


合 文本 、 图 像 、 语 音 等 多 模 态 信息 ， 提 高 NER 的 综合 性 能 ， 适 应 更 广泛 的 应 用 场景 。 
领域 自 适应 : ”进一步 研究 在 特定 领域 的 NER， 通 过 引入 领域 知识 和 迁移 学 习 等 方法 ， 
提高 NER 在 特定 领域 的 适应 性 。 模 型 解释 性 : ”加 强 对 深度 学 习 模 型 的 解释 性 研究 ， 提 
高 NER 模型 的 可 解释 性 ,使 其 在 实际 应 用 中 更 具 可 信和 度 。 跨 语言 NER: ”研究 者 将 继续 
解决 跨 语言 NER 中 的 挑战 ， 提 高 模型 在 多 语 境 下 的 性 能 ， 推 动 全 球 化 信息 处 理 的 发 展 。 
实体 关系 识别 : ”拓展 NER 任务 ， 研 究 实 体 之 间 的 关系 ， 为 更 深层 次 的 语义 理解 商定 基 
础 。 

中 文 NER 作为 自然 语言 处 理 领 域 的 重要 任务 ， 经 过 多 年 的 发 展 ， 在 国内 外 都 取得 
了 显著 的 研究 进展 。 深 度 学 习 技术 的 广泛 应 用 和 BERT 模型 等 预 训练 模型 的 成 功 引入 ， 
为 NER 的 性 能 提升 提供 了 强大 的 支持 。 然 而 ， 仍 面临 领域 自 适 应 、 多 语言 处 理 等 方面 
的 挑战 。 未 来 的 研究 将 继续 围绕 这 些 问 题 展开 ， 结 合 多 模 态 信息 、 提 高 模型 解释 性 等 方 
面 ， 推 动 NER 技术 在 实际 应 用 中 的 更 广泛 和 深入 的 发 展 。 


， 核心 思想 和 算法 描述 


1. 分 词 器 : tokenizer 


Tokenizer[6], 中 文 翻 译 为 "分词 器 ?或 "标记 器 ”, 是 自然 语言 处 理 中 的 一 个 关键 组 件 ， 
用 于 将 文本 切 分 成 语义 单位 , 例如 词语 或 子 词 .Tokenizer 在 深度 学 习 中 的 应 用 非常 广泛 ， 
尤其 在 自然 语言 处 理 任 务 中 ， 如 文本 分 类 、 命 名 实体 识别 、 机 器 翻译 等 。 

Tokenizer 的 基本 原理 是 将 输入 的 文本 序列 划分 成 离散 的 标记 (tokens) 。 这 些 标记 
通常 对 应 于 文本 中 的 词语 、 字 母 或 其 他 更 小 的 语言 单位 。 在 英文 中 ， 通 常 以 单词 为 单位 
进行 标记 ， 而 在 中 文中 ， 标 记 可 以 是 词语 、 字 或 其 他 更 细 粒 度 的 单元 。 本 文中 采用 了 基 
于 深度 学 习 的 分 词 。 近 年 来 ， 随 着 深度 学 习 的 兴起 ， 基 于 神经 网 络 的 分 词 方 法 也 变 得 流 
行 。 这 类 方法 通常 采用 循环 神经 网 络 (RNN) 、 长 短 时 记忆 网 络 (LSTM) 、 卷 积 神 经 
网 络 (CNN) 或 者 Transformer 等 结构 ， 通 过 学 习 上 下 文 信息 来 进行 词语 切 分 。 


2. 预 训练 语言 模型 
预 训练 语言 模型 [7] 是 一 种 通过 在 大 规模 未 标注 语料库 上 进行 自 监督 学 习 来 学 习 通 
用 语言 表示 的 方法 。 这 些 模型 在 自然 语言 处 理 领 域 取得 了 显著 的 成 功 ， 其 中 BERT 
(Bidirectional Encoder Representations from Transformers) 和 GPT (Generative Pre-trained 
Transformer) 是 两 个 具有 代表 性 的 预 训练 语言 模型 。 预 训练 语言 模型 的 原理 如 下 。 预 训 
练 语言 模型 采用 自 监督 学 习 , 这 意味 着 模型 的 训练 数据 来 自 于 无 标签 的 大 规模 文本 数据 。 
在 这 个 阶段 , 模型 不 需要 人 工 标 注 的 标签 , 而 是 通过 设计 自己 的 任务 来 学 习 语言 的 表示 。 
模型 通过 解决 一 些 任 务 来 学 习 通用 语言 表示 。 最 常见 的 预 训练 任务 包括 : 掩 码 语言 模型 
(Masked Language Model, MLM) : ”在 输入 文本 中 随机 掩盖 一 部 分 词语 ， 模 型 需要 预 


测 被 掩盖 的 词语 。 BERT 就 是 通过 MLM 任务 进行 预 训练 的 。 语 言 模型 (Language Model, 
LM) : 模型 根据 前 文 预测 下 一 个 词语 ， 通 常 是 基于 左 侧 或 右 侧 上 下 文 。GPT 就 是 通过 
LM 任务 进行 预 训练 的 。 大 多 数 预 训练 语言 模型 采用 Transformer 架构 。Transformer 是 
种 基于 自 注意 力 机 制 的 深度 学 习 架 构 ， 有 效 地 捕捉 了 长 距离 依赖 关系 。 它 由 多 个 注意 
力 头 组 成 ， 每 个 头 都 能 够 关注 不 同 的 部 分 ， 从 而 更 好 地 处 理 语 言 中 的 复杂 结构 。 预 训练 
语言 模型 通常 具有 多 层 琶 加 的 结构 。 每 一 层 都 包括 多 个 注意 力 头 ， 每 个 头 都 学 习 了 不 同 
方面 的 语言 表示 。 通 过 多 层 的 组 合 ， 模 型 能 够 逐渐 提取 更 高 层次 的 语言 特征 。 

在 预 训 练 完成 后 ， 模 型 可 以 通过 在 特定 任务 上 进行 微调 来 适应 特定 领域 或 应 用 ， 如 
文本 分 类 、 命 名 实体 识别 等 。 微 调 的 过 程 使 得 预 训 练 模型 更 适应 具体 任务 的 特征 ， 提 高 
了 在 有 标签 数据 上 的 性 能 。 经 过 预 训 练 和 微调 ， 模 型 可 以 被 应 用 于 各 种 上 下 游 自然 语言 
处 理 任务 。 预 训练 语言 模型 的 优势 在 于 能 够 在 大 规模 数据 上 学 习 通 用 的 语言 表示 ， 从 而 
在 特定 任务 上 表现 出 色 。 


3. 循环 神经 网 络 


RNN (Recurrent Neural Network， 循 环 神经 网 络 ) [8] 是 一 种 深度 学 习 模 型 ， 主 要 用 
于 处 理 序列 数据 ， 如 时 间 序 列 、 文 本 等 。RNN 的 设计 是 为 了 能 够 捕捉 序列 中 的 时 序 信 
息 ， 使 得 模型 能 够 在 处 理 序列 数据 时 具有 记忆 和 上 下 文 的 能 力 。RNN 的 基本 结构 包括 
一 个 循环 单元 (recurrent unit) 或 称 为 隐藏 状态 ， 它 能 够 接收 输入 并 产生 输出 ， 同 时 在 
不 同时 间 步 (timesteps) 上 共享 参数 。 一 个 简单 的 RNN 单元 的 计算 过 程 可 以 表示 为 : 

ht = activation(Whp * ht_1 + Wyn ` Xt + bh) 

其 中 ，h 是 当前 时 间 步 的 隐藏 状态 ，ht_1 是 上 一 个 时 间 步 的 隐藏 状态 ，xt 是 当前 时 
间 步 的 输入 ，Whn 是 隐藏 状态 到 隐藏 状态 的 权重 矩阵 ，Wxn 是 输入 到 隐藏 状态 的 权重 算 
阵 ，bn 是 偏 置 项 ，activation 是 激活 函数 。 在 每 个 时 间 步 ，RNN 接收 输入 xt 和 前 一 时 间 
步 的 隐藏 状态 ht_1， 然 后 通过 权重 矩阵 和 激活 函数 计算 得 到 当前 时 间 步 的 隐藏 状态 hi。 

尽管 RNN 在 理论 上 能 够 捕捉 序列 的 长 距离 依赖 关系 ， 但 在 实践 中 ， 它 们 有 时 会 面 
临 梯度 消失 (vanishing gradient) 或 梯度 爆炸 (exploding gradient) 的 问题 ， 使 得 难以 学 
习 长 序列 的 依赖 关系 。 为 了 解决 这 个 问题 ,一 些 改进 的 结构 如 长 短 时 记忆 网 络 (LSTM) 
和 门 控 循环 单元 (GRU) 被 提出 ,它们 通过 引入 门 控 机 制 , 更 有 效 地 捕捉 长 序列 的 信息 。 


4. 全 连接 层 


全 连接 层 [9] (Fully Connected Layer) ， 通 常 简称 为 FC 层 ， 是 深度 神经 网 络 中 的 一 
种 基本 层 结构 。 它 的 功能 主要 涉及 到 特征 映射 和 模型 的 非 线 性 变换 。 全 连接 层 与 网 络 的 
其 他 层 相 比 ， 是 最 直接 的 一 层 ， 其 中 的 每 个 神经 元 都 与 上 一 层 的 每 个 神经 元 相连 接 ， 实 
现 了 全 局 信息 的 传递 和 组 合 。 每 个 连接 都 有 一 个 权重 ,全 连接 层 的 参数 包括 连接 所 有 和 输 
入 和 输出 神经 元 的 权重 。 此 外 ， 每 个 输出 神经 元 还 有 一 个 偏 置 项 。 


n 
yj = activation( > wy * Xi + bj) 
i=1 
其 中 ,yj 是 输出 的 第 j 个 神经 元 ，xi 是 输入 的 第 i 个 神经 元 ，wij 是 连接 第 i 个 输入 神 
经 元 和 第 j 个 输出 神经 元 的 权重 ，bij 是 第 j 个 输出 神经 元 的 偏 置 项 ，activation 是 激活 函 


数 。 
四 . 系统 主要 模块 流程 


1. 加 载 编码 工具 


编码 工具 可 以 选择 在 线 加 载 或 本 地 加 载 ， 本 文中 用 到 的 方法 是 本 地 加 载 。 本 文中 采 
用 的 编码 工具 是 哈工大 与 科大 讯 飞 联合 实验 室 开 发 的 模型 hfyrbt6 。 通 过 函数 
tokenizer.batch_encode_plus 将 句子 进行 编码 。 以 下 是 几 个 重要 的 参数 : 
M is split inti words=true: 表示 我 们 的 句子 已 经 完成 分 词 任务 ; 
E return _tensors="pt?: 表示 编码 完成 的 结果 是 pytorch 当中 支持 的 tensor 格式 ; 
E ”truncation=true: 表示 当 句 子 长 度 大 于 max length 时 将 句子 截断 ; 
E padding=true: 表示 不 够 最 大 长 度 的 句子 补 齐 到 max_length 的 长 度 。 

该 编码 工具 对 中 文 的 处 理 是 将 每 个 汉字 作为 一 个 词 , [CLS] 是 "classification” 的 缩 
写 ， 在 文本 分 类 任务 中 ， 它 通常 表示 句子 或 文档 的 开头 。 在 BERT 中 ，[CLS] 对 应 着 
输入 文本 中 第 一 个 词 的 词 向 量 , 输出 层 中 的 第 一 个 神经 元 通常 会 被 用 来 预测 文本 的 类 别 。 
[SEP] 是 "separator” 的 缩写 ， 它 通常 表示 句子 或 文档 的 结尾 。 在 BERT H, [SEP] 对 
应 着 输入 文本 中 最 后 一 个 词 的 词 向 量 , 它 的 作用 是 用 来 分 割 不 同 的 句子 。 例 如 , 在 BERT 
中 处 理 句子 对 时 ， 两 个 句子 之 间 通 常会 插入 一 个 [SEP] 来 表示 它们 的 分 界 点 。 长 度 不 
够 max-length 的 补 [PAD]。[UNK] 表 示 不 能 够 被 识别 的 字 。bert 模型 的 输入 是 文本 ， 需 
要 将 其 编码 为 模型 计算 机 语言 能 识别 的 编码 。 这 里 将 文本 根据 词典 编码 为 数字 ， 称 之 为 
token, Al 1 表示 未 进行 编码 的 句子 。 

[[ 


ce We, a a, a OT SS TT) oe 
W m oe 


这 上 "LW o E W fe, A B BH mS a, e 
int HS AS H J EG AS [5° ss Mo E e RE Oe 
群 B E 而 3 as, 


1 输入 的 句子 
首先 要 对 文本 进行 分 词 , 将 句子 中 的 每 个 词 都 转 成 唯一 的 id, 包括 了 一 些 特殊 字符 ， 
进行 分 词 并 将 词 转化 为 各 自 的 id，input_ IDs 是 分 词 器 得 到 的 结果 ， 将 一 句 话 转 为 id 的 
list， 因 为 在 huggingface 中 输入 模型 Model 的 就 是 input_IDs 这 种 形式 ， 输 入 模型 后 会 
得 到 预测 结果 ， 经 过 后 处 理 操 作 ， 例 如 softmax 或 还 原 操作 ， 将 预测 结果 转化 为 最 终 需 
要 的 结果 。 此 外 ，Token type ids 中 第 一 个 句子 和 特殊 符号 编码 为 0， 第 二 个 句子 编码 


为 1， 用 于 进行 批量 编码 。attention mask 中 表示 [PAD] 的 位 置 是 0， 其 他 位 置 是 1， 编 码 
为 1 的 位 置 用 于 计算 attention， 为 0 的 位 置 不 用 计算 。 编 码 结果 如 图 2 所 示 : 


{'input_ids': tensor([[ 101, 3862, 7157, 3683, 6612, 1765, 4157, 1762, 1336, 7305, 680, 7032, 
7305, 722, 7313, 4638, 3862, 1818, 511, 102, Ə, Ə, ð, o, 
Ə, Ə 2, Ə, Ə, Ə, Ə, Ə, ®, 2, Ə, o, 
9]， 
[ 101, 6821, 2429, 898, 2255, 988, 3717, 4638, 1300, 4289, 7667, 4507, 
1744, 1079, 671, 3837, 4638, 6392, 6369, 2360, 712, 2898, 6392, 6369, 
8024, 3146, 702, 2456, 5029, 5408, 5125, 5401, 5445, 2612, 2131, 511, 


102]]), ‘token_type_ids': tensor([[@, ©, ©, ©, ©, ©, ©, @, ©, ©, O, O, O, O, O, O, O, O, O, O, O, O, O, O, 
Gh. 0 a; a, 105-05 GG 0 Oy 05 0; a] 
[@;, Dy 0; 0; O Dr DY 65858; 4565 0 de O20 0 105 0 9 0 8) G7 By 
Gr 0 0, B, 0, B0, 0 OF B05 07 TE) accent Mask ansonthli LT Lo Lr Ds Te TnL A dae Dy ia dy dae Ls Ls Ty Ty 3 Or Ole, 
2 0; 0; 8,6, 8, (ell, 
|e Sepa: Pee ot ps Ug ye Dg: Lee Lees P bey 
Fin ie hs ae ths ts ig lp la Ela ie aan ID 


2 编码 结 


2. 定义 和 整理 数据 集 


本 文中 实验 所 采用 的 数据 集 是 来 自 huggingface 的 peoples_daily_ner 数据 集 ， 是 一 
个 可 以 应 用 于 NER 任务 的 全 中 文 数据 集 ， 完 成 了 分 词 和 对 于 中 文 命名 实体 的 标注 。 其 
中 用 于 训练 的 数据 量 为 20.9k 条 ， 用 于 验证 的 数据 量 为 2.32k 条 ， 用 于 测试 的 数据 量 为 
4.64k 条 。peoples_daily_ner 数据 集 的 部 分 数据 如 图 3 所 示 。 


tokens ner_tags 
sequence sequence 


| 


[ 0, 0, 0, ©, 9, ©, O, O, O, O, ©, O, O, ©, O, O, O, 8, ©, ©, O, O, ©, O, O, ©, O, O, 
0, 0, 0, 0, 0, 0, 0, ©, ©, O, Ð, O, ©, ©, O, ©, ©, ©, O, O, ©, Ð, O, O, O, ©, O, 0,. 


[0, 0,0, 9, 8, 0, 6, ©, ©, O, ©, O, ©, ©, O, 9, O, O, 8, O, O, ©, O, O, ©, O, 9, O, 
a+ | 1 


è [5, 5,0, 0, 8, 0, 0, ©, O, O, ©, 0, ©, ©, O, O, 5, 5, ©, ©, O, O, ©, G, O, ©, ©, O, 
"W"; | 9, 0- 8, 0, 9, 9, 0. 8, 0, G, 9, 01 


Ci 和 2). 而 -本 本 2, Gy By Be 0), G, 0, 6, De 'O; Dy G, U D 6, °B; a Gy 0: Dy B, 


[ 6, 0,0, 6, ©, 0, 6, 0, ©, 0, ©, 0, ©, 6, 0, ©, 0, 6, 6, 6, 9] 


i r e W a A, C3 4, 4, 0, 0, 1, 2, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, G, O, O, 0, 0, 0, G, 0, 0, 0, O 
nem tye, Mage ye ta] ] 


3 peoples daily ner 数据 集 的 部 分 数据 
加 载 huggingface 的 数据 集 可 以 采用 在 线 加 载 和 离线 加 载 的 方式 ,本文 是 离线 加 载 。 

在 该 数据 集中 定义 了 人 名 、 地 名 、 组 织 机 构 名 的 标签 表示 方法 ， 如 表 1 所 示 : 
表 1 标签 及 其 对 应 含义 

标签 标签 意义 

0 'O' 表示 没有 实体 

1 'B-PER': 表示 人 名 的 开始 

7 TPER' 表示 人 名 的 内 部 

3 'B-ORG': 表示 机 构 名 的 开始 

4 -ORG': 表示 机 构 名 的 内 部 

5 'B-LOC': 表示 地 名 的 开始 


6 T-LOC': 表示 地 名 的 内 部 

例如 一 个 句子 中 的 tokens 为 : 【 海 ， 的 "比赛 ， 地 ,点 在， 厦门， 与， 金门 
之 , 间 ' 的 " 海 , ' 域 , '。'], 它 对 应 的 编码 labels 就 是 : [0, 0, 0, 0, 0, 0, 0, 5, 6, 0, 5, 6, 0, 0, 0, 
0, 0, 0]))， 其 中 “金门 "和 “厦门 "对 应 了 两 个 地 名 ， 分 别 将 开始 词 标 记 为 5， 后 面 的 词 标 
记 为 6。 

整理 数据 集 时 ， 增 加 了 一 个 新 的 标签 类 别 “7”"， 用 于 代表 补充 位 。 我 们 在 每 个 句子 第 
一 个 词 前 加 “7*， 当 该 句子 没有 达到 该 组 内 句子 的 最 大 长 度 时 ， 用 “7’ 补 齐 剩余 位 置 。 并 
将 一 组 句子 的 labels 转换 为 一 个 矩阵 。 
3. 加 载 预 训练 模型 和 定义 下 游 任务 模型 

本 文 使 用 的 预 训练 模型 是 哈工大 与 科大 讯 飞 联合 实验 室 开 发 的 模型 hfyrbt6, 该 模型 
的 参数 量 为 59740416 个 。 

下 游 任务 模型 本 身 有 两 个 简单 的 网 络 层 ， 一 个 是 RNN 层 ， 本 文中 使 用 了 gru 的 实 
M, 通过 引入 门 控 机 制 , 更 有 效 地 捕捉 长 序列 的 信息 。 另 一 个 是 全 连接 层 ， 是 一 个 linear 
的 网 络 结构 。 

定义 两 个 工具 函数 。 工 具 函 数 1: 对 计算 结果 和 labels 进行 变形 ， 并 且 移 除 [PAD]。 
[PAD] 作 为 补充 位 对 于 计算 正确 率 没有 实际 意义 ， 仅 研究 正文 部 分 计算 结果 是 否 正 确 。 
工具 函数 2: 获取 正确 数量 和 总 数 。 分 别 计 算 含 有 label=0 和 不 含 label=0 两 个 正确 率 。 
由 于 在 数据 集中 0 出 现 的 概率 非常 高 ， 因 此 将 ‘0 也 计算 在 内 会 造成 正确 率 的 虚 高 。 


4. 定义 训练 函数 

fine tuneing 模式 时 学 习 率 为 2e-5， 不 是 fine tuneing 时 学 习 率 为 4e-5。 我 们 采用 的 
优化 器 是 AdamW ， 这 是 transformers 提供 的 一 个 优化 器 。 我 们 用 的 criterion = cross 
entropy loss， 是 一 种 损失 函数 ， 损 失 函 数 的 结果 起 小 ， 表 示 预 测 的 越 准确 。 在 训练 过 程 
中 进行 计算 ， 将 计算 结果 中 的 [PAD] 进 行 移 除 ， 在 此 之 后 对 计算 结果 计算 loss， 进 行 梯 
度 下 降 。 每 训练 50 个 批 次 时 ， 得 出 两 份 正确 率 。 

我 们 的 模型 可 以 切换 fine tuneing 这 个 模式 ， 首 先 我 们 让 模型 在 不 是 fine tuneing 的 
模式 下 训练 10 个 轮 次 ， 然 后 我 们 把 模型 切换 到 fine tuneing 模式 之 后 ， 再 训练 10 个 轮 
次 ， 这 叫做 两 段 式 训练 。 我 先 把 下 游 任务 模型 中 的 参数 大 致 进行 训练 ， 之 后 再 带 着 预 训 
练 模型 一 起 训练 。 将 上 述 两 段 式 训练 各 训练 10 个 轮 次 ， 得 到 我 们 的 模型 。 


A. 实验 结果 及 分 析 


1. 实验 结果 分 析 
采用 上 述 训练 好 的 模型 进行 测试 ， 分 别 计算 含有 label=0 和 不 含 label=0 的 两 种 正确 


率 。 正 确 率 的 计算 为 预测 正确 的 数量 /预测 总 数 。 以 下 实验 为 在 不 同 的 batch size 下 两 种 
正确 率 的 预测 结果 ， 如 表 2 所 示 : 
表 2 不 同 batch size 下 的 两 种 正确 率 


batch size 正确 率 (含有 label=0) 正确 率 (不 含 label=0) 
32 99.05% 95.18% 
16 99.02% 94.60% 
8 99.13% 95.03% 
4 99.03% 94.88% 
2 98.85% 93.81% 


batch_size 表示 在 深度 学 习 模 型 的 训练 过 程 中 ， 每 个 训练 步 (或 更 新 步 ) 所 使 用 的 
样本 数目 。 具 体 来 说 ， 它 定义 了 在 每 次 模型 参数 更 新 时 ， 模 型 使 用 多 少 个 样本 的 信息 来 
计算 梯度 并 更 新 权重 。 当 batchsize 从 8 增加 到 16 时 ， 可 以 看 到 正确 率 是 有 所 下 降 的 ， 
这 是 因为 较 大 的 batchsize 使 模型 在 每 个 更 新 步骤 中 考虑 了 更 多 的 样本 , 导致 了 一 定 程度 
的 过 度 平滑 。 另 一 方面 ， 当 batchsize 减 小 到 4 或 2 时 ， 可 以 看 到 模型 的 正确 率 下 降 
这 可 能 是 因为 不 足 的 样本 表示 , 小 batch size 可 能 未 能 充分 捕捉 数据 集 的 整体 特征 ， 导 
致 模型 学 习 到 的 表示 不 够 全 面 。 这 可 能 会 导致 模型 对 新 数据 的 泛 化 性 能 下 降 ， 因 为 它 没 
有 见 过 足够 多 的 样本 以 形成 对 数据 的 全 面 理解 。 

2. 案例 研究 

以 下 是 一 些 完成 命名 实体 识别 的 例子 ， 其 中 仅 标 注 了 非 0 的 labels, 
正确 案例 : 

> 案例 1: 

[CLS] 声 明 指 出 ， 美 洲 国家 组 织 对 阿根廷 政府 为 和 平 解决 马 岛 争端 作出 的 积极 努力 
表示 满意 ， 并 决定 将 马 岛 问题 作为 今后 的 长 期 议题 ， 直 至 问题 最 终 得 到 解决 。[SEP] 


+ 


真实 结果 : [CLS]7…- 美 3 洲 4 国 4 家 4 组 4 织 4 阿 5 根 6 廷 6…… 马 5 岛 
6 外 o 5 岛 6 人 [SEP]7 
预测 结果 : [CLS]7…… 美 3 洲 4 国 4 家 4 组 4 织 4 阿 5 根 6 廷 6…… 马 5 岛 
6 ER m 5 岛 6 We OE eres [SEP]7 
> 案例 2: 
[CLS] 但 是 多 年 的 病魔 缠身 ， 使 他 们 一 家 不 可 能 像 正常 的 家 庭 那 样 生活 、 工 作 和 学 
>]; [SEP] 
真实 结果 : [CLS] Terre [SEP]7 
预测 结果 : [CLS]7 ed GO dd amd es ee [SEP]7 


> 案例 3: 


[CLS] 迁 都 阿 斯 塔 纳 ， 使 喻 有 向 国际 社会 展示 自己 新 貌 的 机 会 。[SEP] 
真实 结果 : [CLS]7… 阿 5 斯 6 塔 6 纳 6 哈 5……………… [SEP]7 
预测 结果 : [CLS]7… 阿 5 斯 6 塔 6 纳 6… 哈 5………… [SEP]7 

令 ”错误 案例 : 


[CLS]1996 年 夏天 ， 上 监利 遭受 百年 未 遇 的 洪涝 灾害 ， 长 江 防 洪 和 群众 安全 成 了 头等 


大 事 。[SEP] 
真实 结果 : [CLS]7 EEEE 监 5 利 Goeree 长 5 SI Gort reer ete eees [SEP]7 
预测 结果 : [CLS]7 oy Pe veya Sas na eee ew 长 5 SI (en [SEP]7 
六 . 结论 


基于 深度 学 习 的 中 文 命名 实体 识别 是 一 项 复杂 而 关键 的 任务 , 其 成 功 实施 通常 包括 
四 个 关键 步骤 。 首 先 ， 加 载 编码 工具 是 整个 流程 的 基础 。 选 择 适 re ee 
程 语言 ， 如 PyTorch， 以 及 Python， 对 于 高 效 地 构建 模型 至 关 重 要 。 这 一 步骤 确保 了 后 
续 任 务 的 顺利 执行 。 其 次 ， 定 义 和 整 理 数据 集 是 训练 模型 的 关键 。 an ae 
文 文本 数据 ， 标 注 命名 实体 的 边界 和 类 别 ， 以 建立 一 个 强大 的 训练 集 。 高 质量 的 数据 集 
直接 影响 模型 的 性 能 和 泛 化 能 力 。 第 三 步 涉及 加 载 预 训练 模型 和 定义 下 游 任务 模型 。 借 
助 预 训 练 语言 模型 (如 BERT 或 GPT) ， 模 型 能 够 学 nie aa 提高 性 能 。 
过 微调 这 些 预 训练 模型 ， 可 以 使 其 适应 特定 的 中 文 命 名 实体 识别 任务 ， 定 义 适 当 的 下 
最 后 ,定义 训练 函数 是 模型 训练 的 核心 。 2 先 择 、 
优化 器 的 配置 以 及 训练 迭代 的 设置 。 通 过 精心 设计 训练 函数 ， 可 以 在 有 限 的 时 间 内 取得 
更 好 的 模型 收敛 效果 。 综 合 而 言 ， 基 于 深度 学 习 的 中 文 命名 实体 识别 是 一 个 综合 考虑 编 
码 工具 、 数 据 集 质量 、 预 训练 模型 选择 以 及 训练 函数 设计 的 复杂 过 程 。 通 过 仔细 执行 每 
个 步骤 ， 可 以 建立 一 个 高 性 能 的 命名 实体 识别 模型 ， 为 中 文 自然 语言 处 理 领 域 的 应 用 提 
供 有 力 支持 。 
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